ساخت ربات گوگل
نویسنده :
فایل robots.txt چیست ؟ یک فایل robots.txt یک فایل متنی است که توسط عنکبوت های موتور جستجو خوانده می شود و از نحوی دقیق پیروی می کند. به این عنکبوتها نیز روبات گفته می شود
فایل robots.txt چیست ؟
یک فایل robots.txt یک فایل متنی است که توسط عنکبوت های موتور جستجو خوانده می شود و از نحوی دقیق پیروی می کند. به این عنکبوتها نیز روبات گفته می شود - از این رو نام - و نحوی پرونده به دلیل ساده بودن خواندن رایانه بسیار سخت است. این بدان معنی است که در اینجا جایی برای خطا وجود ندارد - چیزی 1 یا 0 است.
همچنین پرونده "پروتکل طرد رباتها" نامیده می شود ، پرونده robots.txt نتیجه اجماعی در بین توسعه دهندگان عنکبوتی موتورهای جستجو اولیه است. این یک استاندارد رسمی نیست که توسط هر سازمان استاندارد تنظیم شده باشد ، بلکه همه موتورهای اصلی جستجو به آن پایبند هستند.
فیل robots.txt چه کاری انجام می دهد؟
موتورهای جستجوگر وب را با عناوین عنکبوتیه فهرست می کنند ، پیوندهای زیر را برای رفتن از سایت A به سایت B به سایت C و غیره می دهند. قبل از اینکه یک موتور جستجوگر عنصری را در صفحه خود پیدا کند ، پرونده robots.txt دامنه را باز می کند ، که به موتور جستجو می گوید که URL های موجود در آن سایت را فهرست بندی می کند.
موتورهای جستجو معمولاً محتویات robots.txt را ذخیره می کنند ، اما معمولاً آن را چندین بار در روز تجدید می کنند ، بنابراین تغییرات نسبتاً سریع منعکس می شوند
فیل robots.txt را کجا باید قرار دهم ؟
فایل robots.txt همیشه باید در ریشه دامنه شما باشد. بنابراین اگر دامنه شما www.amertejarat.com است ، باید در https://www.amertejarat.com/robots.txt یافت شود.
همچنین بسیار مهم است که پرونده robots.txt شما واقعاً robots.txt نامیده شود. نام حساس مورد است ، بنابراین به درستی این کار را انجام دهید در غیر این صورت کار نخواهد کرد.
یک پرونده robots.txt از یک یا چند بخشنامه تشکیل شده است که هر یک از آنها با یک خط کاربر-عامل شروع می شود. "عامل کاربر" نام عنکبوتی خاص است که به آن می پردازد. شما می توانید با استفاده از یک کارت ویزیت برای کاربر یا یک بلوک خاص برای موتورهای جستجو خاص ، یک بلوک برای همه موتورهای جستجو داشته باشید. یک عنکبوت موتور جستجو همیشه بلوکی را انتخاب می کند که با نام خود مطابقت دارد.این بلوک ها به این شکل به نظر می رسند (نترسید ، ما در زیر توضیح خواهیم داد):
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: bingbot
Disallow: /not-for-bing/
اولین بیت از هر بخش از دستورالعمل ها کاربر عامل است که یک عنکبوت خاص را مشخص می کند. قسمت عامل کاربر با عامل خاص عنکبوت (معمولاً طولانی تر) مطابقت دارد ، بنابراین به عنوان مثال رایج ترین عنکبوت از Google دارای عامل کاربر زیر است:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
بنابراین اگر می خواهید به این عنکبوت بگویید که چه کاری انجام دهید ، یک خط کاربری نسبتاً ساده: خط Googlebot این ترفند را انجام خواهد داد.
اکثر موتورهای جستجو دارای چندین عنکبوت هستند. آنها از یک عنکبوت خاص برای فهرست عادی خود ، برنامه های تبلیغاتی خود ، تصاویر ، فیلم ها و غیره استفاده می کنند.
رایج ترین عوامل کاربر برای عنکبوت های موتور جستجو
در اینجا لیستی از عوامل کاربر شما می توانید در پرونده robots.txt خود استفاده کنید تا با موتورهای جستجوی متداول مطابقت داشته باشد:
Search engine Field User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex
دستورالعمل Disallow
خط دوم در هر بلوک از دستورالعمل ، خط Disallow است. شما می توانید یک یا چند مورد از این خط ها را داشته باشید ، مشخص کنید که کدام قسمت از سایت عنکبوت مشخص شده نمی تواند دسترسی داشته باشد. یک خط خالی Disallow به معنای این است که شما هیچ چیزی را نمی پذیرید ، بنابراین اساساً بدان معنی است که یک عنکبوت می تواند به همه بخش های سایت شما دسترسی داشته باشد.
مثال زیر باعث می شود موتورهای جستجوگر "گوش دادن" robots.txt از خزیدن سایت شما جلوگیری کنند.
User-agent: *
Disallow: /
مثال زیر تنها با یک کاراکتر کمتر به همه موتورهای جستجوگر اجازه می دهد تا کل سایت شما را چک کنند.
User-agent: *
Disallow:
مثال زیر می تواند Google را از چک کردن فهرست فهرست در سایت شما - و همه چیز موجود در آن - مسدود کند.
"رسما" ، استاندارد robots.txt از عبارات منظم یا کارتهای عادی پشتیبانی نمی کند ، با این وجود ، همه موتورهای جستجوگر اصلی آن را درک می کنند. این بدان معنی است که می توانید از خطوطی مانند این برای مسدود کردن گروه پرونده ها استفاده کنید:
Disallow: /*.php
Disallow: /copyrighted-images/*.jpg
برخی موتورهای جستجو مانند Google امکان بیان عادی و پیچیده تری را فراهم می کنند ، اما توجه داشته باشید که ممکن است برخی موتورهای جستجو این منطق را درک نکنند. مفیدترین ویژگی این افزودن $ است که نشانگر پایان یک URL است. در مثال زیر می توانید ببینید چه کاری انجام می دهد:
Disallow: /*.php$
این بدان معنی است که /index.php نمی تواند ایندکس شود ، اما /index.php؟p=1 می تواند باشد. البته ، این تنها در شرایط بسیار خاص مفید است و همچنین بسیار خطرناک است: به راحتی کار کردن مواردی را که در واقع نمی خواستید آنلاک کنید ، آسان نیست.
و همچنین دستورالعمل های Disallow و User-agent ، دو دستورالعمل خزیدن دیگر وجود دارد که می توانید از آنها استفاده کنید. این بخشنامه ها توسط همه خزندگان موتور جستجو پشتیبانی نمی شوند ، بنابراین مطمئن شوید که از محدودیت های آنها آگاه هستید.
این دستورالعمل با پشتیبانی Yandex (و نه توسط گوگل ، علی رغم آنچه در بعضی از پست ها می گوید) به شما امکان می دهد تصمیم بگیرید که آیا می خواهید موتور جستجو نمونه.com یا www.example.com را نشان دهد یا خیر. به سادگی با مشخص کردن این مورد ، این ترفند انجام می شود:
host: example.com
اما از آنجا که فقط Yandex از دستورالعمل میزبان پشتیبانی می کند ، ما به شما توصیه نمی کنیم که به آن اعتماد کنید ، به خصوص اینکه به شما امکان نمی دهد یک طرح (http یا https) تعریف کنید. راه حل بهتری که برای همه موتورهای جستجو کار می کند این است که 301 تغییر نام های میزبان مورد نظر در فهرست را به نسخه مورد نظر خود تغییر دهید. در مورد ما ، www.amertejarat.com را به amertejarat.com هدایت می کنیم.
یاهو! ، بینگ و یاندکس بعضی اوقات می توانند کاملاً گرسنه باشند ، اما خوشبختانه همه آنها به دستورالعمل تأخیر در خزیدن پاسخ می دهند که باعث کندی آنها می شود. و در حالی که این موتورهای جستجو روشهای کمی متفاوت برای خواندن این بخشنامه دارند ، اما نتیجه نهایی اساساً یکسان است.
خطی مانند خط زیر به یاهو آموزش می دهد. و بینگ باید 10 ثانیه پس از یک عمل خزیدن صبر کند ، در حالی که Yandex فقط در هر 10 ثانیه یک بار به سایت شما دسترسی پیدا می کند. این یک تفاوت معنایی است ، اما هنوز هم جالب است که بدانید. در اینجا مثال خط تاخیر خزیدن وجود دارد:
crawl-delay: 10
هنگام استفاده از بخشنامه تأخیر در خزیدن مراقب باشید. با تنظیم یک تأخیر خزیدن 10 ثانیه ، فقط به این موتورهای جستجو اجازه می دهید روزانه به 8،640 صفحه دسترسی پیدا کنند. این ممکن است برای یک سایت کوچک بسیار زیاد به نظر برسد ، اما در سایت های بزرگ تعداد بسیار کمی نیست. از طرف دیگر ، اگر از این موتورهای جستجو هیچگونه ترافیکی نداشته باشید ، این یک راه خوب برای صرفه جویی در پهنای باند است.